機率與統計：不確定性的科學：從機率到似然：推論的科學

統計推論標誌著從基於已知參數（機率）預測結果，轉變為根據觀測數據判斷哪些參數最符合（似然）。雖然機率密度函數 $f(x|\theta)$ 描述了在固定 $\theta$ 時資料 $x$ 的分佈，但似然函數 $L(\theta|x)$ 則將觀測資料視為固定，改變參數 $\theta$ 以量化不同假設的相對支持程度。

反轉原理

似然函數通常以聯合密度的形式表示。對於具有固定變異數的常態分佈，似然函數定義如下：

$L ( \theta | x_1, \dots, x_n ) = \exp\left( -\frac{n}{2\sigma_0^2} (\bar{x} - \theta)^2 \right)$

在此，我們根據樣本平均值 $\bar{x}$ 評估不同 $\theta$ 值的「合理性」。為了找出此合理性的峰值，我們利用 定義 6.2.2：對數似然 $l(\theta | s) = \ln L(\theta | s)$。此轉換將獨立觀測值的乘積轉化為和，使複雜模型的最大化在計算上變得可行。

範例演算：身高調查（範例 6.3.5）

資料

考慮一個包含 $n=30$ 組身高的樣本，其計算出的標準差為 $s=2.379$。使用位置-尺度常態模型，我們試圖推斷真正的平均值 $\theta$。

推論與精確度

標準誤差計算為 $s/\sqrt{30} = 0.43434$。此值衡量我們似然曲線峰的「尖銳程度」。較小的標準誤差代表更窄、更尖銳的峰值，顯示對 $\theta$ 的推論具有更高的精確度。

維度與限制

在如下的複雜情境中 範例 6.1.5（多項模型），我們必須考慮邏輯上的依賴性。如註記所示：「注意，這實際上只有兩個維度，因為一旦我們知道任意兩個 $\theta_i$ 的值……我們立刻就能得知剩餘參數的值。」此約束對於正確定義參數空間 $\Omega$ 至關重要。

漸近基礎

從似然到推論的橋樑依賴於中央極限定理。當 $n \to \infty$ 時，我們估計量的分佈會收斂。特別地，在 範例 6.5.4 伯努利模型：

$Z = \frac{\sqrt{n}(\bar{X} - \theta)}{\sqrt{\bar{X}(1 - \bar{X})}} \xrightarrow{D} N(0, 1)$

只要樣本足夠大，我們便能透過 z 信賴區間與 p 值來量化不確定性。

🎯 核心原則

無分配方法的統計推論僅需對抽樣分佈做出最少的假設，因此當參數族 $\{P_{\theta} : \theta \in \Omega\}$ 非常龐大時仍具強健性。相反地，參數型似然方法則依賴於對數似然的曲率，其中費雪資訊 $nI(\theta)$ 決定了我們得分函數的變異數。

問題 1

6.1.2：假設自殺事件發生率為每個人年 $p$（泊松分布 $\text{Poisson}(Np)$）。若在 $N=30,345$ 人年中觀察到 22 起自殺事件，請問對數似然函數 $l(p)$ 是多少？

$l(p) = -30345p + 22\ln(p) + C$

$l(p) = 30345\ln(p) - 22p + C$

$l(p) = e^{-30345p} p^{22}$

$l(p) = -22p + 30345\ln(p)$

問題 2

6.3.14：$\psi(\theta)$ 的 0.95% 信賴區間為 $(1.23, 2.45)$。是否有證據反對 $H_0 : \psi(\theta) = 2$？

沒有，因為 2 位於區間內部。

有，因為 2 不在區間的中心。

有，在 $\alpha=0.01$ 水準下。

資訊不足，無法下結論。

問題 3

驗證 $N(\mu, \sigma^2)$ 的第三階矩。哪個表達式代表 $\mu_3 = E_{\theta}(X^3)$？

$\mu^3 + 3\mu\sigma^2$

$\mu^3 + \sigma^3$

$3\mu^2\sigma + \mu^3$

$\mu^3 + 3\sigma^2$

問題 4

6.5.1：若 $x_1, \dots, x_n \sim N(\mu_0, \sigma^2)$，且 $\mu_0$ 已知，那麼費雪資訊 $I(\sigma^2)$ 是多少？

$1 / (2\sigma^4)$

$1 / \sigma^2$

$n / (2\sigma^2)$

$2\sigma^4$

問題 5

在 k 種類別的多項模型（範例 6.1.5）中，參數空間的有效維度是多少？

$k - 1$

$k$

$k^2$

$1$